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Реконфигурируемые вычислительные 
системы для цифровой обработки сигналов 


В статье рассматриваются вопросы решения задач цифровой обработки сигналов на реконфигурируемых 
вычислительных системах с макрообъектной архитектурой. 


Введение 


Высокая реальная производительность и эффективность реконфигурируемых вы- 
числительных систем (РВС), построенных на программируемых логических интеграль- 
ных схемах (ПЛИС), позволяет использовать их в различных предметных областях, в 
том числе и таких, где требуется высокопроизводительная цифровая обработка сиг- 
налов (ЦОС). В то время как системы ЦОС, выполненные на ОУР-процессорах, находят 
применение в специализированных устройствах, в том числе и в бортовом исполне- 
нии, существуют задачи, решаемые на многопроцессорных системах, которые содержат 
фрагменты ЦОС. К таким задачам можно отнести задачи математической физики, ре- 
шаемые спектральными методами, задачи, включающие обработку изображений, за- 
дачи зондирования приповерхностных слоев земли и т.п. В этом плане становится 
актуальной проблема реализации алгоритмов ЦОС в РВС, которые эффективно справ- 
ляются с такого рода задачами. Основу многих алгоритмов обработки сигналов сос- 
тавляют быстрые алгоритмы ортогональных преобразований, на основании которых 
строятся эффективные алгоритмы ЦОС. В журнале «Искусственный интеллект» вы- 
шел целый ряд статей, посвященных обработке сигналов в РВС [1-3]. Предлагаемая 
статья освещает вопросы быстрой фильтрации действительных сигналов большого размера 
с использованием макрообъекта ЦОС-7.2, создаваемого в вычислительном поле РВС. 


РВС с макрообъектной архитектурой 


Считается, что программирование РВС является весьма трудным и сложным де- 
лом, поскольку для этого привлекаются как специалисты-схемотехники, создающие 
вычислительные структуры в поле логических блоков ПЛИС, так и программисты (в тра- 
диционном понимании) для программирования процесса подачи данных в созданные 
вычислительные структуры. По сути дела, программирование РВС заключается в соз- 
дании в ее базовой архитектуре специализированной вычислительной системы, поз- 
воляющей эффективно решать конкретную прикладную задачу [4]. Однако процесс 
программирования можно существенно облегчить, если использовать возможности 
макрообъектной архитектуры РВС, допускающей двухуровневое программирование. 
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На аппаратном уровне схемотехник, используя возможности САПР ПЛИС, соз- 
дает специализированные функциональные узлы — макрообъекты, ориентированные 
на проблемную область решаемой задачи, а также коммутационные средства, обес- 
печивающие возможности их объединения в вычислительные структуры. Библиотеки 
макрообъектов для различных предметных областей могут быть созданы заранее. На 
втором уровне в процессе создания прикладной программы пользователь настраивает 
макрообъекты и осуществляет их объединение в вычислительные структуры, адек- 
ватные структуре решаемой задачи. Стоимость и время программирования РВС при 
этом становятся существенно меньше за счет заранее подготовленных технических 
решений — макрообъектов, а главное, время перепрограммирования вычислительного 
поля будет зависеть только от времени загрузки параметров и срабатывания комму- 
татора. 

Макрообъектом называется архитектурно неделимая совокупность функциональ- 
ных узлов (объектов), объединенных пространственной коммутационной системой в 
проблемно-ориентированную вычислительную структуру. Фактически макрообъект 
является некоторой «заготовкой», которая может доопределяться пользователем в 
процессе создания конкретного технического решения, а затем тиражироваться в схе- 
мотехническом ресурсе РВС в необходимом количестве и соединяться с подобными 
или другими макрообъектами в вычислительные структуры, которые оптимально соот- 
ветствуют структуре решаемой задачи. 

В качестве примера рассмотрим структуру макрообъекта ЦОС-7.2, который соз- 
дан для реализации алгоритмов цифровой обработки сигналов и при помощи которого 
пользователь может решать большое количество задач, основанных на быстром преоб- 
разовании Фурье. При этом перенастройка макрообъекта на решение очередной зада- 
чи не требует привлечения схемотехника и перезагрузки конфигурационных файлов 
ПЛИС, а производится путем изменения параметров настройки. 

Техническая реализация макрообъекта представляет собой набор программных 
и аппаратных средств, разработанных для решения задач той или иной предметной 
области. Программный фрагмент макрообъекта состоит из двух составных частей: 
управляющей программы, осуществляющей обмен данными между персональным ком- 
пьютером и РВС, и программы на языке ассемблера Агэиз, управляющей работой 
распределенной памяти вычислительной системы. Управляющая программа форми- 
рует последовательность входных данных в соответствии с выбранным алгоритмом 
обработки. Наряду с входными данными и характеристиками фильтра управляющая 
программа загружает параметры, при помощи которых макрообъект настраивается на 
решение выбранной пользователем задачи. 


Макрообъект ЦОС-7.2 


На рис. 1 представлена укрупненная структурная схема макрообъекта ЦОС-7.2. 
Макрообъект предназначен для выполнения алгоритмов БПФ, ОБПФ и быстрой свертки. 


Размеры преобразований и сверток могут составлять №1 =2” , где и1 программируется 
в пределах от 4 до 12. Макрообъект содержит контроллер распределенной памяти (КРП), 
позволяющий работать одновременно с реальными и мнимыми частями комплексных 
чисел, блок конвертирования форматов данных, блок управления, два блока КЭШ- 
памяти, каждый из которых содержит адресный процессор и двухпортовое ОЗУ глу- 
биной 4096 64-разрядных слов, конвейер из восьми вычислительных блоков — ВБ и 
блок масштабирования — БлМ. 
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Рисунок 1 — Укрупненная структурная схема макрообъекта ЦОС-7.2 


Контроллер распределенной памяти является основным узлом, организующим вы- 
числительный процесс в РВС со структурно-процедурным принципом организации 
вычислений. Метод потока операндов, используемый в РВС, предусматривает исполь- 
зование КРП в качестве активных управляющих устройств. Несмотря на необходимость 
написания программ для каждого КРИ, входящих в состав вычислительных структур, 
данный подход представляется наиболее эффективным с точки зрения минимизации 
аппаратных затрат. Более подробно с принципами работы КРП можно познакомить- 
сяв [4]. 

КЭШ-память, содержащая двухпортовое ОЗУ и адресный процессор, предназна- 
чена для оперативного хранения промежуточных результатов в процессе выполнения 
алгоритмов БПФ, ОБПФ и быстрых сверток [3], [5]. Наличие в составе макрообъекта 
КЭШ-памяти обусловлено сложными типами адресации и необходимостью обеспече- 
ния плотных (без пропусков) потоков данных. Память ЗОКАМ типа РОК или ООВ2, 
на основе которой выполнена распределенная память РВС, обеспечивает экономичное 
хранение информации большого объема, однако эффективна только при блочном доступе 
к информации, не позволяющем реализовывать нестандартные типы адресации данных, 
которые используются в алгоритмах цифровой обработки сигналов для перестановки 
элементов цифровых последовательностей. 

Блок конвертирования данных выполняет перевод упакованных целочисленных 
данных, представленных в дополнительном или прямом коде в формат 32-разрядных 
чисел типа Ноа{ стандарта ТЕЕЕ-754, а также обратное преобразование 32-разрядных 
чисел типа Ноа в упакованное число. Блок конвертирования допускает работу с дву- 
мя форматами 32-разрядных упакованных данных: 4-байтных или 2-байтных целых 
числа со знаком в дополнительном коде. 

Вычислительный блок ВБ выполняет арифметические преобразования инфор- 
мации в формате с плавающей запятой над 32-разрядными операндами в соответствии 
с алгоритмами базовых операций БИФ и ОБПФ по частоте, вычисление коэффициента 


ий 


‚ и поэлементное взвешивание на коэффициенты ядра свертки В, и Н, 11, [4], [6]. 


Организация структурно-процедурных вычислений для алгоритмов БПФ и вы- 
числение быстрых сверток описаны в [3-6]. 
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Реализация макрообъекта ЦОС-7.2 
на базовом модуле РВС 


Рассмотрим техническую реализацию макрообъекта ЦОС-7.2 в аппаратном ре- 
сурсе базового модуля 16\4-50 (рис. 2). 

Базовый модуль 16\У4-50 содержит вычислительное поле из 16 ПЛИС ХСАУГ 
Х40-10ЕЕ1148 фирмы ХШих, которые расположены в узлах двумерной решетки 4 Х 4, 
16 каналов распределенной памяти, выполненных на микросхемах МТ48ГС16М32$2 
с организацией 16х22 32-разрядных слов. Общий объем распределенной памяти сос- 
тавляет 1 Гбайт. К периферийным микросхемам вычислительного поля подключены 
по два канала распределенной памяти, которые могут быть как независимыми -— два 
банка 16х220 32-разрядных слов, так и объединенными в один банк 16х220 64-разряд- 
ных слов. В макрообъекте ЦОС-7.2 используется контроллер распределенной памяти, 
который позволяет обращаться в одном такте к двум 32-разрядным каналам, имитируя, 
тем самым, 64-разрядную память. 

На основе базового модуля 16\4-50, имеющего пиковую производительность 
50 Гфлопс, можно строить РВС с производительностью до 1 Тфлопс. 


= — 08 Контроллер 
Е Е пран ы | рак базового 
в модуля 


ГЕ 


Рисунок 2 — Базовый модуль 16\4-50 


Для настройки макрообъекта ЦОС-7.2 требуется 22 параметра разрядностью 64 би- 
та, которые, с учетом тактовой частоты работы макрообъекта в 160 МГц, выполняют 
его программирование всего за 140х107 секунд. Для сравнения — без использования 
макрообъектной архитектуры в случае перепрограммирования на другие задачи по- 
требовалась бы перезагрузка конфигурации вычислительного поля, что занимает около 
10 секунд. 

Производительность макрообъекта ЦОС-7.2 при решении задачи фильтрации ме- 
тодом быстрой свертки на сигнале длиной около 395 миллионов отсчетов фильтром 
с импульсной характеристикой 700 отсчетов составила 9,7 Гфлопс. 

Поскольку макрообъект ЦОС-7.2 при его реализации на базовом модуле 16\4- 
50 занимает ресурс всего четырех ПЛИС, то с целью достижения возможно высокой 
производительности на задачах фильтрации в 16\4-50 были реализованы четыре мак- 
рообъекта каждый в своем квадранте, отмеченном на рис. 2. В общем случае такое 
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расположение макрообъектов не обязательно, и они могут располагаться, например, 
в горизонтальных или вертикальных линейках ПЛИС вычислительного поля. Соеди- 
нение макрообъектов друг с другом и с контроллером базового модуля осуществляется 
по шинам, соединяющим контроллеры распределенной памяти (КРП), как это пока- 
зано на рис. 3. 
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Рисунок 3 — Соединение четырех макрообъектов ЦОС-7.2 в базовом модуле 164-50 


Производительность базового модуля 16\4-50 с четырьмя макрообъектами ЦОС- 
7.2 на задаче фильтрации методом быстрой свертки сигнала длиной около 395 миллионов 
отсчетов фильтром с импульсной характеристикой 700 отсчетов составила 38,6 Гфлопс, 
что составляет 77,2% от его пиковой производительности. 


Алгоритмическое обеспечение макрообъекта ЦОС-7.2 


Рассмотрим алгоритмическое обеспечение задачи фильтрации действительных 
сигналов на макрообъектах ЦОС-7.2. Дело в том, что действительные сигналы име- 
ют симметричные спектры, в то время как алгоритмы ДИФ и БИФ определены для 
обработки комплексных сигналов, не обладающих свойством симметрии. Поэтому 
алгоритм БИФ при вычислении спектра действительных сигналов обладает примерно 
двукратной избыточностью. Для того чтобы поднять эффективность алгоритма БПИФ 
при обработке действительных сигналов, используют методы, которые устраняют 
избыточность [7]. Один из методов предполагает нахождение спектра одновременно 
двух действительных сигналов с последующим разделением спектров, используя не- 
значительное количество операций суммирования. Другой предполагает формирование 
из одного действительного сигнала одного комплексного половинной длины с после- 
дующим нахождением спектра укороченного комплексного сигнала и дальнейшим 
формированием спектра исходного действительного сигнала. При этом формирова- 
ние спектра исходного действительного сигнала требует помимо операций сложения 
также №/4 операций комплексного умножения на поворачивающие множители из на- 
бора коэффициентов ДПФ размера №. 

Однако при выполнении алгоритма фильтрации действительных сигналов мето- 
дом быстрой свертки можно дополнительно уменьшить количество вычислительных 
операций. Опираясь на свойства линейности операций свертки и ДПФ, можно не вы- 
полнять операции по выделению отдельных спектров действительных сигналов, что 
дополнительно сократит количество операций. Ниже приводится обоснование такого 
подхода. 
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Сформируем комплексный сигнал х12(п) из двух действительных х1(и) и х2(п) 
х12(п) = х1(п) + 7-х2(п). (1) 
Пусть Х12(К), ХКК) и Х2(®) - спектры сигналов х12(п), х(и) и х2(п) , тогда 
на основании свойств линейности БИФ можно записать 
Х12(п) = Хи) 7. Х2(®). 


Выполним умножение Х12(А) на спектр коэффициентов фильтра Н(К) 
712(К) = Х12(®.Н() = ХК. Н(®+ 7: Х2(®).Н(®) = УК®+ 7-72). 
Выполнив алгоритм обратного БИФ, получим 


У12(п) = УКп)+ 1: У2(). 
Из приведенных рассуждений видно, что можно с помощью алгоритма быстрой 
свертки одновременно обработать либо два сигнала х1(п) и х2(и) , либо сократить вдвое 


длину одного сигнала, представив его в виде комплексного по приведенному выше ал- 
горитму. При этом результат фильтрации сигнала х1(п) будет находиться в реальной 


части комплексного результата, а результат фильтрации сигнала х2(и) — в мнимой 


части комплексного результата быстрой свертки. 

Фильтрация сигналов большой длины методом секционирования с применением 
макрообъекта ЦОС-7.2 вносит свои особенности в формирование входного сигнала. 
Особенности формирования входного сигнала связаны как с использованием выше- 
описанного алгоритма, так и с распределением данных в вычислительной структуре 
базового модуля, содержащей четыре макрообъекта. Для их совместной параллельной 
работы данные перед загрузкой в память вычислительной системы должны быть раз- 
делены. В случае нашего примера при использовании четырех макрообъектов и приве- 
денного выше алгоритма обработки действительного массива формирование комплексного 
сигнала производится по следующему алгоритму. 

По приведенной ниже формуле подсчитывается общее количество секций К ис- 
ходного массива х, которое необходимо для выполнения быстрой свертки методом 


К =сей ЕВА. +1, 
№1 - Г 


где № - длина массива х; №1 — длина одной секции; [Г — длина импульсной харак- 


секционирования. 


теристики, функция сей (а) округляет значение а до ближайшего большего целого. 


Количество секций должно быть кратным восьми, поскольку массив х разби- 
вается на восемь частей — для четырех макрообъектов и внутри каждого макрообъекта 
происходит разделение действительного массива на реальную и мнимую части (рис. 4). 
Для обеспечения нужного количества секций входной массив х необходимо дополнить 
нулями до соответствующего размера М,, 


№, = К1х(М - [) + Е, 


где К +8 > К1> К - количество секций, кратное восьми. 

Как показано на рис. 4, при использовании описанного выше метода любое раз- 
деление массивов должно производиться с учетом перекрытия секций, при этом размер 
перекрытия, как и длина секции, могут быть различны и зависят от входного сигнала 
и длины импульсной характеристики. 
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х ВемТ`?< мМТ`>< Вем2?< тМ22< Вемз`7< тМЗ`2< Вем4_?< тМ4 
Квадрант 1 Квадрант 2 Квадрант 3 Квадрант4 <. 


Рисунок 4 — Схема разделения исходного массива макрообъектам 1, 2, 3, 4 


Поскольку весь исходный массив должен быть отфильтрован как единое целое, 
то его сборка из четырех результирующих комплексных массивов должна произво- 
ДИТЬСЯ С учетом перекрытия. 

Количество данных при подобном подходе может увеличиться на 7 секций, од- 
нако при большом количестве данных на производительность это практически не влияет, 
а простота формирования окончательного результата позволяет снизить нагрузку на 
персональный компьютер, что немаловажно, учитывая его загруженность процессами 
обмена. 


Программный макрообъект для цифровой 
обработки сигналов 


Макрообъект для цифровой обработки сигналов может быть создан с использо- 
ванием программного подхода, который предполагает участие пользователя с квали- 
фикацией программиста. Схемотехник выполняет только предварительную работу 
на этапе создания специальных библиотечных элементов для данной предметной облас- 
ти. Библиотечные элементы могут вызываться как специальные функции средствами 
языка высокого уровня СОГАМО, ориентированного на написание параллельных 
программ для РВС. Программист на языке СОГАМО, используя специальные функции, 
создает параллельную программу для ЦОС, которая в результате трансляции создает 
в вычислительном поле РВС необходимые проблемно-ориентированные макрообъек- 
ты для решения прикладной задачи. Пример создания программного макрообъекта 
описан в [8]. 

Структура программного макрообъекта, разработанного с использованием спе- 
циальных функций из библиотеки «ГлЬОЗР», является конвейерной, что позволяет 
начинать обработку следующей секции, не ожидая окончания обработки предыдущей. 
Это значительно ускоряет обработку массива в целом и организует плотный поток 
данных как на входе, так и на выходе макрообъекта, не затрачивая времени на вы- 
полнение дополнительных операций чтения и записи КРП. 

Специальные функции библиотеки «ТлЬОЗР» позволяют транслятору создать ком- 
пактное конвейерное устройство, обеспечивающее эффективное решение задач ЦОС, 
и требуют всего три канала распределенной памяти на 12 базовых операций БПФ. Это 
делает процесс отладки более прозрачным и позволяет избежать дополнительных оши- 
бок при написании программы. В то же время СОГАМО-программа для выполнения 
алгоритма свертки, написанная без использования специальных функций, довольно гро- 
моздка, и на одну базовую операцию БПФ требуется десять каналов распределенной 
памяти. Помимо этого количество операторов в такой программе почти в четыре раза 
больше, чем в СОГАМО-программе с использованием специальных функций. 

Производительность базового модуля 16\4-50 с макрообъектом, созданным с 
использованием специальных функций библиотеки «ГлЬОЗР» для расчета спектра дейст- 
вительного сигнала размера № =1024, равна 33,8 Гфлопс, что составляет 67,6% от 
пиковой производительности. 
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Заключение 


В статье рассмотрены примеры решения задач ЦОС на базовом модуле 16\4-50 
реконфигурируемой вычислительной системы с макрообъектной архитектурой. На кон- 
кретном примере создания макрообъекта, ориентированного на решение задач ЦОС, 
показано, что его разработка является комплексной задачей, требующей совместного 
решения схемотехнических, алгоритмических и программных подзадач. Однако со- 
зданный макрообъект существенно упрощает дальнейшее использование РВС при 
решении задач из этой же предметной области. Приведенные примеры реализации 
макрообъекта как аппаратным, так и программным способом, показывают высокую 
эффективность этих решений. 

Следует обратить внимание на то, что тактовая частота работы макрообъектов, 
реализованных в базовом модуле 16\4-50, составляет всего 160 МГц. Тем не менее 
реальная производительность 16\4-50 на задачах ЦОС при обоих способах создания 
макрообъектов составляет от 38,6 до 33,7 Гфлопс, что превышает 67% его пиковой про- 
изводительности. Такая высокая эффективность вычислений достигается оптимальным 
соответствием вычислительных структур структуре решаемых задач. 
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Реконфигурован! обчислювальн! системи для цифрово! обробки сигналв 

У статт! розглядаються питання розв’язання задач цифрово! обробки сигналв на реконфигурованих 
обчислювальних системах з макрооб’ектною архтектурою. 
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